iT邦幫忙

2022 iThome 鐵人賽

DAY 4
0
Security

區塊鏈與聯邦學習系列 第 4

集中式機器學習(Centralized Machine Learning)

  • 分享至 

  • xImage
  •  

共享有價值的業務資料不是一種好選擇

  • 大型資料集中於少數大型機構,目前的資料開放(Open Data)沒有很好的共享機制。
    • 私有的資料:共享?
    • 監管的資料:使用?個資保護(GDPR)
    • 實用的障礙:巨量?
  • 從不同來源匯集資料建立模型
    • Data Lake
    • Cloud
  • 網路連接昂貴、緩慢或不可靠

資料集中化問題(The Data Centralization Problem)

  • 隱私問題(Privacy Problem)
    如何在不披露資料的情況下授權訓練模型。
  • 影響問題(Influence Problem)
    第三方能否可量化影響的方式為 AI 模型的行為做出貢獻。
  • 經濟問題(Economic Problem)
    第三方能否正確激勵為人工智慧模型的知識和質量做出貢獻。
  • 透明度問題(Transparency Problem)
    • 在沒有信任的中間人的情況下,AI 模型的行為活動是否可以無限制開放。

開放資料的方式

從制度與結構來說,有許多不同的選擇。這裡可以分成兩大關鍵議題來談。

  • 資料集中儲存
    • 都向中央機構提供資料
    • 資料持有者與資料請求者,直接資料交換
  • 資料集中存取
    • 授權要求
    • 對所有人開放

集中式資料儲存容易成資安攻擊目標

  • 集中式的資料穀倉(Data Silo)
    • 資料修正
      • 資料都會不斷新增、不斷異動、不斷刪除,資料更新都必須在一定時間內傳送到資料穀倉修正,即使這些資料當前沒有人要求存取。
    • 風險提高
      • 如能夠成功入侵,國家等級的資料任意取用
  • 資料直接傳輸:資料請求者與資料持有者之間
    • 讓各企業管理自己的資料
    • 減低資料傳輸頻寬
    • 部分遭到入侵時影響有限

上一篇
可容忍防禦和可用性之間的平衡
下一篇
隱私保護機器學習(Privacy-Preserving ML, PPML)
系列文
區塊鏈與聯邦學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言